智能论文笔记

Fine-Grained Selective Similarity Integration for Drug-Target Interaction Prediction

Bin Liu , Jin Wang , Kaiwei Sun , Grigorios Tsoumakas

分类：人工智能

2022-12-01

The discovery of drug-target interactions (DTIs) is a pivotal process in pharmaceutical development. Computational approaches are a promising and efficient alternative to tedious and costly wet-lab experiments for predicting novel DTIs from numerous candidates. Recently, with the availability of abundant heterogeneous biological information from diverse data sources, computational methods have been able to leverage multiple drug and target similarities to boost the performance of DTI prediction. Similarity integration is an effective and flexible strategy to extract crucial information across complementary similarity views, providing a compressed input for any similarity-based DTI prediction model. However, existing similarity integration methods filter and fuse similarities from a global perspective, neglecting the utility of similarity views for each drug and target. In this study, we propose a Fine-Grained Selective similarity integration approach, called FGS, which employs a local interaction consistency-based weight matrix to capture and exploit the importance of similarities at a finer granularity in both similarity selection and combination steps. We evaluate FGS on five DTI prediction datasets under various prediction settings. Experimental results show that our method not only outperforms similarity integration competitors with comparable computational costs, but also achieves better prediction performance than state-of-the-art DTI prediction approaches by collaborating with conventional base models. Furthermore, case studies on the analysis of similarity weights and on the verification of novel predictions confirm the practical ability of FGS.

translated by 谷歌翻译

Attitude-Guided Loop Closure for Cameras with Negative Plane

Ze Wang , Kailun Yang , Peng Li , Fei Gao , Kaiwei Wang

分类：计算机视觉 | 机器人

2022-09-12

循环闭合是同时定位和映射（SLAM）系统的重要组成部分。大型视野（FOV）摄像机在SLAM领域受到了广泛的关注，因为它们可以利用全景图像上更多的周围功能。在大型VIO中，用于结合位于全景镜头负面平面上的信息提示，图像特征由具有单位长度的三维矢量表示。虽然全景FOV似乎对于循环封闭是有利的，但在大角度的差异下，这些好处不能轻易实现，在大型角度差异下，循环封闭帧几乎无法通过现有方法匹配。在这项工作中，为了完全释放超宽FOV的潜力，我们建议利用VIO系统的态度信息来指导环路闭合的特征点检测。随着宽圈全景数据上的循环封闭进一步带有许多离群值，因此传统的异常拒绝方法并非直接适用。为了解决此问题，我们提出了一个基于单位长度表示的新离群拒绝方法的循环封闭框架，以提高LF-VIO的准确性。在公共Palvio数据集上，进行了一组全面的实验，并提出的LF-Vio-loop优于最先进的视觉惯性化学方法。我们的代码将在https://github.com/flysoaryun/lf-vio-loop上开放。

translated by 谷歌翻译

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation

Jiaming Zhang , Kailun Yang , Hao Shi , Simon Reiß , Kunyu Peng , Chaoxiang Ma , Haodong Fu , Kaiwei Wang , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-07-25

在本文中，我们介绍了全景语义细分，该分段以整体方式提供了对周围环境的全景和密集的像素的理解。由于两个关键的挑战，全景分割尚未探索：（1）全景上的图像扭曲和对象变形；（2）缺乏培训全景分段的注释。为了解决这些问题，我们提出了一个用于全景语义细分（Trans4Pass）体系结构的变压器。首先，为了增强失真意识，Trans4Pass配备了可变形的贴片嵌入（DPE）和可变形的MLP（DMLP）模块，能够在适应之前（适应之前或之后）和任何地方（浅层或深度级别的（浅层或深度））和图像变形（通过任何涉及（浅层或深层））和图像变形（通过任何地方）和图像变形设计。我们进一步介绍了升级后的Trans4Pass+模型，其中包含具有平行令牌混合的DMLPV2，以提高建模歧视性线索的灵活性和概括性。其次，我们提出了一种无监督域适应性的相互典型适应（MPA）策略。第三，除了针孔到型 - 帕诺amic（PIN2PAN）适应外，我们还创建了一个新的数据集（Synpass），其中具有9,080个全景图像，以探索360 {\ deg} Imagery中的合成对真实（Syn2real）适应方案。进行了广泛的实验，这些实验涵盖室内和室外场景，并且使用PIN2PAN和SYN2REAL方案进行了研究。 Trans4Pass+在四个域自适应的全景语义分割基准上实现最先进的性能。代码可从https://github.com/jamycheung/trans4pass获得。

translated by 谷歌翻译

Annular Computational Imaging: Capture Clear Panoramic Images through Simple Lens

Qi Jiang , Hao Shi , Lei Sun , Shaohua Gao , Kailun Yang , Kaiwei Wang

分类：计算机视觉

2022-06-13

由少量镜头组成的全景环形镜头（PAL）在全景周围具有巨大潜力，该镜头围绕着移动和可穿戴设备的传感任务，因为其尺寸很小，并且视野很大（FOV）。然而，由于缺乏畸变校正的镜头，小体积PAL的图像质量仅限于光学极限。在本文中，我们提出了一个环形计算成像（ACI）框架，以打破轻质PAL设计的光学限制。为了促进基于学习的图像恢复，我们引入了基于波浪的模拟管道，用于全景成像，并通过多个数据分布来应对合成间隙。提出的管道可以轻松地适应具有设计参数的任何PAL，并且适用于宽松的设计。此外，我们考虑了全景成像和物理知识学习的物理先验，我们设计了物理知情的图像恢复网络（PI2RNET）。在数据集级别，我们创建了Divpano数据集，其广泛的实验表明，我们提出的网络在空间变化的降级下在全景图像恢复中设置了新的最新技术。此外，对只有3个球形镜头的简单PAL上提议的ACI的评估揭示了高质量全景成像与紧凑设计之间的微妙平衡。据我们所知，我们是第一个探索PAL中计算成像（CI）的人。代码和数据集将在https://github.com/zju-jiangqi/aci-pi2rnet上公开提供。

translated by 谷歌翻译

Efficient Human Pose Estimation via 3D Event Point Cloud

Jiaan Chen , Hao Shi , Yaozu Ye , Kailun Yang , Lei Sun , Kaiwei Wang

分类：计算机视觉 | 机器人

2022-06-09

基于RGB图像的人类姿势估计（HPE）经历了从深度学习中受益的快速发展。但是，基于事件的HPE尚未得到充分研究，这仍然是在极端场景和关键效率条件下应用的巨大潜力。在本文中，我们是第一个直接从3D事件点云中估算2D人类姿势的人。我们提出了一个新颖的事件表示，即栅格的事件点云，将事件汇总在小时切片的相同位置上。它保持了来自多个统计提示的3D功能，并显着降低了记忆消耗和计算复杂性，这在我们的工作中很有效。然后，我们利用两种不同的骨干，点网，DGCNN和点变压器来利用栅格化事件点云，并使用两个线性层解码器来预测人关键点的位置。我们发现，基于我们的方法，PointNet以更快的速度实现了令人鼓舞的结果，而点传感器的精度也更高，甚至接近以前的基于事件框架的方法。一组全面的结果表明，在事件驱动的人姿势估计中，我们提出的方法对这些3D主干模型始终有效。我们基于2048点输入的PointNet的方法在DHP19数据集上的MPJPE3D中实现了82.46mm，而在NVIDIA Jetson jetson Xavier NX Edge Computing Platform上仅具有12.29ms的延迟，理想地适合于实时检测事件Cameras。代码将在https://github.com/masterhow/eventpointpose上公开制作。

translated by 谷歌翻译

PanoFlow: Learning 360° Optical Flow for Surrounding Temporal Understanding

Hao Shi , Yifan Zhou , Kailun Yang , Xiaoting Yin , Ze Wang , Yaozu Ye , Zhe Yin , Shi Meng , Peng Li , Kaiwei Wang

分类：计算机视觉 | 机器人

2022-02-27

光流估计是自动驾驶和机器人系统系统中的一项基本任务，它可以在时间上解释流量场景。自动驾驶汽车显然受益于360 {\ deg}全景传感器提供的超宽视野（FOV）。但是，由于全景相机的独特成像过程，专为针孔图像设计的模型不会令人满意地概括为360 {\ deg}全景图像。在本文中，我们提出了一个新颖的网络框架 - panoflow，以学习全景图像的光流。为了克服全景转化中等应角投影引起的扭曲，我们设计了一种流动失真增强（FDA）方法，其中包含径向流量失真（FDA-R）或等骨流量失真（FDA-E）。我们进一步研究了全景视频的环状光流的定义和特性，并通过利用球形图像的环状来推断360 {\ deg}光流并将大型位移转换为相对小的位移，从而提出了环状流量估计（CFE）方法移位。 Panoflow适用于任何现有的流量估计方法，并从狭窄的FOL流量估计的进度中受益。此外，我们创建并释放基于CARLA的合成全景数据集Flow360，以促进训练和定量分析。 Panoflow在公共Omniflownet和已建立的Flow360基准中实现了最先进的表现。我们提出的方法将Flow360上的端点误差（EPE）降低了27.3％。在Omniflownet上，Panoflow获得了3.17像素的EPE，从最佳发布的结果中降低了55.5％的误差。我们还通过收集工具和公共现实世界中的全球数据集对我们的方法进行定性验证我们的方法，这表明对现实世界导航应用程序的强大潜力和稳健性。代码和数据集可在https://github.com/masterhow/panoflow上公开获取。

translated by 谷歌翻译

LF-VIO: A Visual-Inertial-Odometry Framework for Large Field-of-View Cameras with Negative Plane

Ze Wang , Kailun Yang , Hao Shi , Peng Li , Fei Gao , Kaiwei Wang

分类：计算机视觉 | 机器人

2022-02-25

视觉惯性化学测定法吸引了自主驾驶和机器人技术领域的广泛关注。视场（FOV）的大小在视觉播音（VO）和视觉惯性二次测量法（VO）中起着重要作用，作为大型FOV，可以感知各种周围的场景元素和特征。但是，当摄像机的字段到达负半平面时，就不能简单地使用[u，v，1]^t来表示图像特征点。为了解决这个问题，我们建议LF-VIO，这是一个具有极大FOV的相机的实时VIO框架。我们利用具有单位长度的三维矢量来表示特征点，并设计一系列算法来克服这一挑战。为了解决带有地位的位置和姿势的全景视觉探针数据集的稀缺性，我们介绍了Palvio数据集，该数据集用具有360 {\ deg} x的整个FOV的全景环形镜头（PAL）系统收集（40 {\ deg}） -120 {\ deg}）和IMU传感器。有了全面的实验，在已建立的Palvio基准和公共Fisheye摄像机数据集上验证了建议的LF-VIO，其FOV为360 {\ deg} x（0 {\ deg} -93.5 {\ deg}）。 LF-VIO优于最先进的视觉惯性 - 调节法。我们的数据集和代码可在https://github.com/flysoaryun/lf-vio上公开提供。

translated by 谷歌翻译

MEFNet: Multi-scale Event Fusion Network for Motion Deblurring

Lei Sun , Christos Sakaridis , Jingyun Liang , Qi Jiang , Kailun Yang , Peng Sun , Yaozu Ye , Kaiwei Wang , Luc Van Gool

分类：计算机视觉

2021-11-30

由于长时间曝光时间，传统的基于帧的相机不可避免地遭受运动模糊。作为一种生物启发相机，事件摄像机以具有高时间分辨率的异步方式记录强度变化，在曝光时间内提供有效的图像劣化信息。在本文中，我们重新思考基于事件的图像去掩盖问题并将其展开成为端到端的两级图像恢复网络。为了有效地利用事件信息，我们设计（i）专门用于图像去纹理的新型对称累积事件表示，以及（ii）在我们网络的多个级别应用的仿射事件图像融合模块。我们还提出了网络的两个阶段之间的事件掩码所连接的连接，以避免信息丢失。在数据集级别，为了促进基于事件的运动解训，并促进挑战真实世界图像的评估，我们介绍了在照明控制的光学实验室中使用活动摄像机捕获的高质量模糊（HQBLUR）数据集。我们的多尺度事件融合网络（MEFNET）设置了用于运动解训的新技术，超越了先前最佳的基于图像的方法和GoPro上的公共实现的所有基于事件的方法（高达2.38dB即使在极端模糊条件下，也是HQBLUR Datasets。源代码和数据集将公开可用。

translated by 谷歌翻译

Implicit Neural Representation Learning for Hyperspectral Image Super-Resolution

Kaiwei Zhang

分类：计算机视觉

2021-12-20

高光谱图像（HSI）没有额外辅助图像的超分辨率仍然是由于其高维光谱图案的恒定挑战，其中学习有效的空间和光谱表示是基本问题。最近，隐式的神经表示（INR）正在进行进步，作为新颖且有效的代表，特别是在重建任务中。因此，在这项工作中，我们提出了一种基于INR的新颖的HSI重建模型，其通过将空间坐标映射到其对应的光谱辐射值值的连续函数来表示HSI。特别地，作为INR的特定实现，参数模型的参数是通过使用卷积网络在特征提取的超通知来预测的。它使连续功能以内容感知方式将空间坐标映射到像素值。此外，周期性空间编码与重建过程深度集成，这使得我们的模型能够恢复更高的频率细节。为了验证我们模型的功效，我们在三个HSI数据集（洞穴，NUS和NTIRE2018）上进行实验。实验结果表明，与最先进的方法相比，该建议的模型可以实现竞争重建性能。此外，我们提供了对我们模型各个组件的效果的消融研究。我们希望本文可以服务器作为未来研究的效率参考。

translated by 谷歌翻译

Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection

Junjie Yan , Yingfei Liu , Jianjian Sun , Fan Jia , Shuailin Li , Tiancai Wang , Xiangyu Zhang

分类：计算机视觉

2023-01-03

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.

translated by 谷歌翻译